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摘要 ”复杂 崖 性 井 段 对 密度 测 井 数据 精度 要 求 很 高 ， 传 统 的 计算 模型 不 能 很 好 的 满足 此 时 的 高 精度 要 求 。 
为 此 提出 利用 机 器 学 习 回 归 预 测 模型 提高 密度 测 井 曲线 的 精度 ， 考 虑 到 XGBoost 模型 的 过 拟 合 问题 ， 基 于 
SSA 算法 改进 XGBoost 进而 提出 了 SSA-XGBoost 密度 预测 模型 。 采 用 蒙特 卡 罗 模 拟 双 探测 器 密度 测 井 仪 
器 ， 获 取 不 同 密度 地 层 数据 以 验证 该 模型 的 预测 效果 。 利 用 SSA 算法 优化 SVR, RFR 和 LSTM 参数 ， 构 
建 SSA-SVR、SSA-RFR 和 SSA-LSTM 模型 预测 模拟 地 层 密度 ， 并 使 用 量化 评价 指标 和 泰勒 图 模型 对 比分 
析 各 个 模型 的 预测 性 能 。 此 外 ， 还 分 析 了 不 同 预 测 模型 对 实际 密度 测 井 数 据 的 预测 效果 。 结 果 表 明 
SSA-XGBoost 模型 的 预测 精度 高 于 传统 将 - 肋 图 模型 ， 在 实际 密度 测 井 数据 处 理 中 具有 广阔 的 应 用 前 景 。 
关键 词 SSA-XGBoost; 蒙特 卡 罗 模 拟 ; 机 器 学 习 ;， 密度 预测 
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Study on the Prediction of High-precision Density Based On the SSA-XGBoost 
Model 


Li Rui Wu Wensheng 
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Abstract [Background]: Complex lithology well sections require high precision in density 
logging data, and traditional computational models cannot adequately meet the high precision 
requirements in these cases. [Purpose]: This study aims to improve the precision of density 
logging curves using machine learning regression prediction models. [Method]: Firstly, SSA 
algorithm was used to improve XGBoost, leading to the development of the SSA-XGBoost 
density prediction model. Then, Monte Carlo N-Particle transport code (MCNP) of dual-detector 
density logging tool instrument was used to obtain stratigraphic data of different densities to 
validate the predictive effectiveness of the model. By optimizing the parameters of SVR, RFR, 
and LSTM using the SSA, the SSA-SVR, SSA-RFR, and SSA-LSTM models were constructed to 
predict the simulated formation density. The predictive performance of each model was compared 
and analyzed using quantitative evaluation metrics and Taylor diagram models. Finally, the 
performance of different prediction models on actual density logging data was analyzed. 
[Result]: In the comparative analysis and processing of actual well density logging data with 
various models, the SSA-XGBoost model showed smaller errors between predicted and actual 
density, demonstrating high density accuracy and validating the precision of the method. 
[Conclusion]: The SSA-XGBoost model demonstrates higher predictive accuracy than traditional 
spine-ribs plot, showing great potential for applications in the processing of actual density logging 
data. 
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， 研 究 方向 为 地 球 物理 测 


度 较 


随 着 国外 内 主力 油田 进入 高 含水 开发 阶段 和 致密 油 藏 的 发 现 , 双 探测 器 密度 测 井 仪器 精 


狼 ， 不 能 很 好 的 满足 复杂 油气 田 开发 需要 0。 提高 密度 测 井 的 精度 对 识别 油气 层 ， 计 


算 地 层 孔 际 度 具有 十 分 重要 


的 重 作用 。 传 统 的 提高 密度 测 井 精 度 的 响应 模型 主要 有 次 - 肋 图 


法 CSpine-ribs Plot). £ Z XL EX tr x ii. ( Multi-parameter Joint Inversion ) 和 四 维 方 程 


(Four-dimensional Equation) 等 ， 对 测 井 数据 的 依赖 程度 较 高 ， 识 别 精度 与 效率 较 低 67。 


随 着 硬件 入 


人 了 


力 的 显著 增强 ,机 器 学 习 和 深度 学 习 算法 持续 取得 突破 性 进展 由 ， 将 测 井 资料 与 
[智能 技术 相 结 合 来 提升 密度 测 井 的 精度 已 成 为 一 种 重要 方法 。 


支持 癌 量 回归 (Support Vector Machine, SVM)", K #9 id TZ P 24 (Long Short-Term 
Memory，LSTM) L909、 随机 森林 回归 (Random Forest，RFR)00 和 梯度 提升 决策 树 (Gradient 
Boosting Decision Tree, GBDT) 0 等 是 目前 拟 合 性 能 好 ， 泛 化 能 力 强 的 机 器 学 习 模 型 。 在 过 
去 二 十 多 年 实践 中 ， 梯 度 提升 决策 树 (GBDT) 由 于 其 高 预测 性 ， 高 适应 性 在 众多 机 器 学 习 模 
型 中 脱颖而出 。Chen 等 人 针对 梯度 提升 决策 树 (GBDT) 训练 速度 慢 、 时 间 复 杂 度 高 以 及 难 
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行 化 等 问题 进行 了 改进 ， 提 出 了 XGBoost， 这 是 一 个 高 效 、 灵 活 且 具有 强大 可 移植 性 的 


最 优 分 布 式 决策 梯度 提升 库 由 ]。 相 较 之 下 ，XGBoost 在 性 能 和 速度 上 都 表现 出 色 。 其 决策 
树 结 构 直 接 支 持 模型 可 视 化 ， 同 时 通过 全 局 特征 重要 性 评估 ， 提 升 了 模型 的 解释 性 09。 以 


p 


往 的 研究 表明 ， 引 入 分 解 算法 的 混合 预测 模型 比 单一 预测 模型 可 以 获得 更 准确 的 预测 结果 ， 
与 单一 分 解 技术 相 比 ， 使 用 两 阶段 分 解 技术 将 更 充分 地 减弱 序列 的 非 平滑 性 05]。XGBoost 
作为 人 工 智能 领域 比较 前 沿 的 一 种 算法 , 其 收敛 速度 的 快慢 和 拟 合 能 力 的 强 弱 与 多 种 超 参数 


AR, WRX XGBoost 的 超 参数 集 进行 优化 选择 ， 可 以 充分 发 挥 其 预测 性 能 。Ye 等 将 交叉 


验证 法 (LOO) XGBoost 算法 相 结合 ,建立 了 LOO-XGBoost 预测 模型 来 解决 非 线 性 回归 问 


[yu 


进行 NMR Jf ns xe FO” 
REITA PEVA SUS), PR GE 
力 和 快速 收敛 的 特性 ， 已 广泛 应 用 到 各 类 回归 预测 算法 领域 。 
本 文 利用 SSA 辅助 选择 XGBoost 的 最 优 超 参 数 集 , 然后 利用 XGBoost 的 非 线性 映射 能 


9, Liu 等 将 粒子 群 优化 算法 (PSO) 5j XGBoost 相 结 合 ， 建 立 了 PSO-XGBoost 预测 模型 
。 彭 英 等 将 Focal-Loss 函数 与 XGBoost 结合 ,提出 了 FL-XGBoost 


搜索 算法 作为 一 种 新 型 群体 智能 优化 算法 ， 有 具备 强大 的 求解 能 


力 ， 建 立 了 SSA-XGBoost 回归 预测 模型 对 密度 测 井 数据 进行 处 理 ， 提 高 密度 测 井 数据 的 精 
度 。 并 将 预测 结果 与 XGBoost、SSA-SVR、SSA-LSTM 和 SSA-RFR 模型 预测 的 结果 进行 比 


较 ， 


研究 SSA-XGBoost 模型 在 提高 密度 测 井 数据 精度 方面 的 应 用 。 


1 SSA-XGBoost 算法 原理 


模型 ， 根 据 生长 树 的 特征 对 


XGBoost 是 一 种 可 扩展 的 机 器 学 习 系 统 。 它 在 内 部 实现 了 GBDT 模型 ， 是 对 传统 的 
GBDT 算法 的 优化 09。 该 模型 的 复杂 性 得 到 了 显著 减 小 , 可 以 有 效 解 决 传统 模型 经 常 出 现 的 
过 拟 合 问题 , 并 在 保持 极 快运 算 速 度 的 同时 实现 高 精度 。 XGBoost 的 预测 原理 是 连续 添加 树 


的 预测 值 之 和 ， 表 达 式 为 : 


其 进行 划分 ， 并 拟 合 上 次 预测 的 残 差 。 最 终 预测 值 是 每 棵 树 获 得 


ad KG) eF (1) 


EARP, f AMA, F 为 回归 树 空间 。 
作为 提高 密度 测 井 数据 精度 的 回归 预测 模型 , 选择 目标 函数 作为 损失 函数 和 惩罚 函数 的 
ÆJ: 


LD) 2 5 1($.y,)* DOK) (2) 


其 中 7 为 损失 函数 ，@ 为 惩罚 函数 。 惩 罚 函数 表示 为 : 


ou) - 7T +All wl (3) 


在 不 影响 精度 的 情况 下 ， 通 过 二 阶 泰勒 展开 的 最 终 损失 函数 为 : 
Tlie 5) + 8.40) + hd] a) 


对 于 决策 树 , 每 次 拆 分 都 会 计算 一 次 目标 函数 。 当 从 分 裂 中 获得 的 信息 增益 成 本 超过 极 
限时 ， 决 策 树 停 止 分 裂 ， 决 策 树 的 预测 得 分 为 最 终 的 目标 函数 。 

MERR GUE (Sparrow Search Algorithm, SSA) 通过 模拟 麻 洗 的 进食 和 捕食 者 回避 行为 
来 优化 模型 参数 PFI。 它 具 有 强大 的 优化 能 力 和 快速 的 收敛 速度 。SSA 可 以 有 效 地 减少 搜索 
空间 ， 提 高 搜索 效率 ， 避 人 免 搜 索 空间 中 的 局 部 最 优 解 ， 比 粒子 群 优化 算法 (PSO) 和 灰 狼 优 化 
算法 (GWO) 等 其 他 优化 算法 具有 更 好 的 优化 能 力 P1231]。SSA 算法 公式 如 下 : 


l 
,R, «ST 
utc à 


x = (5) 
X!,+Q-L,R, = ST 


X;,-exp( 
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在 公式 G) 中 ，X 为 麻雀 的 位 置 ， 在 算法 迭代 过 程 中 表示 当前 解 的 状态 ; t 为 迭代 次 
数 ; 1 为 种 群 个 体 编号 ; d 为 优化 问题 的 变量 个 数 ，G, 为 最 大 连 代 次 数 ;，Q 为 (0,1) 分 
布 的 随机 数 ，Q 为 标准 正 态 分 布 的 随机 数 ， 工 为 单位 矩阵，ST 为 警告 阔 值 ， 其 取 值 范围 在 
[0.5,1] 之 间 ; R, 为 警告 值 。 

设置 麻 兴 数量 为 25， 最 大 迭代 次 数 为 120， 以 配置 SSA 参数 。 利 用 SSA 对 XGBoost 
的 最 大 友 代 次 数 、 树 的 深度 以 及 学 习 率 进行 优化 , 以 提高 模型 的 预测 性 能 和 运算 效率 。 之 后 ， 
利用 参数 优化 后 的 SSA-XGBoost 模型 对 密度 测 井 数据 进行 预测 。 


2 模型 建立 及 数据 处 理 
2.1 MCNP5 模拟 

蒙特 卡 罗 (Monte Carlo N-particle code, MCNP) 数值 模拟 技术 已 广泛 应 用 于 核 辐射 测 井 
领域 ， 包 括 核 测 井 机 理 和 测 井 响应 研究 、 仪 器 刻度 和 校正 以 及 新 方法 和 算法 应 用 P4269。 为 了 


构建 模型 的 数据 集合 和 验证 SSA-XGBoost 密度 预测 模型 各 方面 的 性 能 ， 利 用 MCNPS 建立 
了 图 1 所 示 模 型 ， 仪 器 模型 规格 参数 如 表 1 所 示 。 


Far Detector 


Near Detector 


1 双 探 测 器 密度 测 井 仪器 模型 
Fig.1 Model of the dual detector density logging tool 


R1 仪器 模型 参数 


Table 1 Parameters ofthe instrument model 


参数 规格 

Parameters Instructions 

{5 Gamma ray source Cs537， 能 量 Energy:0.662 Mev 

探测 器 类 型 Detector types 近 探 头 Near detector: 远 探 头 Nal, Far detector: Nal 
源 距 Sonde-to-source spacing 近 源 距 Near space: 19cm， 远 源 距 Far space: 39cm 
仪器 设计 Instrument design 直径 Diameter: 6cm, KÆ Length: 55cm 


综合 考虑 实际 情况 和 模拟 数据 的 误差 , 设置 地 层 填充 材料 为 饱含 水 石灰 岩 , 井 眼 用 淡水 
填充 ， 井 眼 直 径 为 13cm， 该 双 探 测 器 密度 测 井 仪器 放置 在 钻 猎 中 ， 并 贴 井 壁 ， 模 型 之 外 的 
空间 设置 为 真空 。 模 拟 的 伽 马 光子 粒子 数 设 置 为 1x108 探 测 器 记录 能 量 大 于 0.15 MeV AY Ail 
马 光 子 通 量 ， 并 且 保 证 计数 率 相对 误差 均 小 于 2%。 表 2 展示 了 模拟 过 程 中 不 同 密度 的 饱含 
水 石灰 岩 长 、 短 源 距 探测 器 计数 率 的 统计 误差 。 


密度 


Density / gecm? 


2.001 
2.304 
2.651 
2.874 
3.011 


利用 MCNPS 模拟 不 同 了 


表 2 不 同 探头 计数 率 统计 误差 


Table 2 Statistical error of count rates for different detector 


短 探头 计数 率 


Near detector 


count rates 
3.063E-08 
2.80 1E-08 
2.497E-08 
2.352E-08 
2.256E-08 


在 模拟 地 层 中 进行 数据 采样 ， 
度 ， 以 此 方法 做 正 演 模拟 ， 


所 示 ， 采 用 离散 化 处 型 
号 。 将 Kl1、K2、K3、K4、K6、 
和 K9 作为 测试 集 以 记 


短 探头 统计 误差 
Near detector 


statistical error 


0.62% 
0.68% 
0.75% 
0.80% 
0.82% 


长 探头 计数 率 
Far detector 
count rates 
3.839E-10 
2.155E-10 
1.120E-10 
7.874E-11 
5.274E-11 


长 探头 统计 误差 
Far detector 
statistical error 
1.16% 

1.21% 

1.27% 

1.33% 

1.47% 


LB ERAS Fe] a FE 


方法 ， 将 该 模型 建立 的 密度 数据 以 地 


FE 估 模 型 的 预测 性 能 和 泛 化 能 


的 石灰 岩 地 层 , 双 探 测 器 密度 测 
获取 对 应 模拟 地 层 的 长 、 短 源 距 探测 器 计数 率 和 地 层 的 真实 密 
获得 1000 组 地 层 密度 模拟 数据 。 处 到 
层 孔 隙 度 变 化 划分 为 10 2H3 
K7、K8 和 K10 段 作 为 机 器 学 习 模 型 的 训练 集 ， 选 择 K5 


模拟 数据 量 统计 丸 


仪器 被 放置 


13 


I SSA-XGBoost 模型 是 否 有 效 ， 先 将 


表 3 处 理 数据 统计 
Table3 Statistical analysis of processed data 
编号 LER HE 孔隙 流体 密度 范围 
Number Porosity / P.U. Pore fluid Density range / 
gecm? 

Kl 0 H20 2.46~2.71 

K2 5 H20 2.31~2.68 

K3 10 H20 2.51~2.94 

K4 15 H20 2.44~2.83 

K5 20 H20 2.36~2.88 

K6 25 H20 2.15-2.87 

K7 30 H20 2.21~2.98 

K8 35 H20 2.14-2.91 

K9 40 H20 2.25~2.95 

K10 45 H20 2.41~2.96 
2.2 XGBoost 模型 优化 

为 了 检验 所 构建 的 用 于 提高 密度 测 井 数据 精度 

XGBoost 用 于 该 密度 精度 回归 预测 模型 。 在 考虑 到 模型 精度 , 减少 过 拟 合 以 及 算 没 
数 影响 后 ， 利 用 SSA 算法 优化 最 大 迭代 次 数 ， 树 的 深度 和 学 习 率 ， 
模型 进行 比较 。 最 终 优化 结果 如 表 4 所 示 ; 


到 了 一 定 程度 的 提升 ， 数 据 结果 如 图 


模型 
Model 


SSA-XGBoost 


XGBoost 


表 4 参数 优化 结果 


Table 4 Results of parameter optimization 


最 大 迭代 次 数 


Maximum iterations 


90 
81 


根据 上 述 步 又 ， 利 用 SSA-XGBoost 模型 对 测试 集中 的 密度 测 
测 结果 与 XGBoost 模型 和 模拟 地 层 真实 密度 作对 比 ,SSA-XGBoost 模 型 预测 结果 的 准确 度 得 


2 所 示 : 


学 习 率 
Learning rate 
0.9182 
0.9546 


树 的 深度 
Tree depth 
6 
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效率 等 参 
并 将 该 模型 与 XGBoost 


数据 进行 预测 ， 


并 将 预 


-*- True Density 
[-*- SSA-XGBoost 
+ XGBoost 


Density / g:cm? 


= True Density 
-*- SSA-XGBoost 
2.68 E. [2 XGBoost 


N 
a 
EN 


Density / g:cm? 


Sample? c» 


Density / g:cm? 


= True Density 
-+= SSA-XGBoost 
[-— XGBoost 


True Density 
SSA-XGBoost 
XGBoost 


Sample? d? 


图 2 SSA-XGBoost 参数 优化 密度 预测 结果 对 比 


Fig.2 Comparison of SSA-XGBoost parameter optimization density prediction results 


为 了 进一步 比较 SSX-XGBoost 模型 与 XGBoost 模 型 的 预测 性 能 ,选取 了 测试 集中 的 200 
个 数据 点 进行 模型 误差 分 析 ，SSA-XGBoost 模型 的 预测 精度 得 到 了 有 效 的 提高 。 图 3 展示 


了 SSA-XGBoost 模型 和 XGBoost 模型 在 不 同 测试 集 的 
看 出 经 过 多 个 超 参 数 优化 的 SSA-XGBoost 模型 总 体 预 测 性 能 较 好 ， 预 测 更 准确 ， 能 更 好 的 


归 预 测 密 度 测 井 曲线 , 可 以 明显 的 


| 


反应 地 层 的 真实 密度 。 这 是 因为 SSA-XGBoost 能 够 分 离 数 据 的 不 同 层 析 结构 ， 消 除 潜在 的 


a 
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时 间 序 列 的 内 在 动态 ， 从 而 在 后 续 的 训练 模型 中 得 到 更 为 准确 的 预测 结果 。 
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图 3 SSA-XGBOOST 超 参 数 优化 模型 误差 对 比 


Fig.3 Comparison of SSA-XGBOOST model errors for hyperparameter optimization 


2.3 模拟 数据 预测 结果 对 比 与 分 析 
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图 4 不 同 模型 模拟 数据 密度 预测 结果 对 比 


Fig.4 Comparison of simulation data density prediction results of different models 
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图 5 模型 性 能 对 比 泰勒 图 


Fig.5 Model performance comparison Taylor plot 


2.4 实测 数据 处 理 对 比 及 分 析 


为 验证 SSA-XGBoost 模型 的 准确 性 和 泛 化 能 力 , TE MCNPS 数值 模拟 1000 组 密度 测 井 
数据 的 基础 上 ， 将 在 密度 预测 对 比 中 泛 化 能 力 表现 最 好 的 SSA-XGBoost 模型 和 传统 的 疹 - 
肋 图 模型 进行 对 实例 测 井 数据 进行 处 理 , 选取 了 实际 应 用 井中 不 同 层 段 的 测 井 数 据 进 行 实验 
结果 的 可 视 化 ， 结 果 如 图 6 所 示 。 其 展示 了 SSA-XGBoost 模型 与 脊 - 肋 图 法 对 珠江 口 盆 地 和 白 
云 构造 区 内 的 某 口 测 间 深度 分 别 为 4415-~4460m 和 4970--5015m 的 油气 并 可 视 化 预测 结果 。 
在 图 中 , 深度 值 左 侧 曲线 为 常规 测 井 资料 解释 曲线 , 深度 值 右 侧 的 曲线 展示 了 SSA-XGBoost 
模型 与 奉 - 肋 图 法 预测 密度 曲线 和 真实 密度 曲线 DEN 的 对 比 情况 以 及 分 别 对 应 的 密度 误差 
曲线 。 从 图 中 可 以 看 出 本 文 提 出 的 SSA-XGBoost 模型 预测 值 与 真实 值 误差 较 小 ， 呈 现 出 较 
高 的 密度 精度 ， 同 时 也 验证 了 该 方法 的 有 效 性 和 精确 性 。 
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图 6 4415-4460m 实测 数据 处 理 对 比 4415-4460 m(a) fl 4970~5015m(b) 
Fig.6. Comparison of measured data processing of 4415~4460m 4415~4460m(a) and 4970~5015m(b) 


3 结语 


1) 本 文 提出 了 一 种 基于 SSA-XGBoost 的 密度 测 井 数据 高 精度 预测 方法 。 利用 蒙特 卡 罗 
数值 模拟 所 得 1000 组 密度 测 井 数 据 作 为 该 模型 的 训练 集 和 测试 集 ， 将 多 种 机 器 学 习 方 法 与 
传统 兰 - 肋 图 法 所 得 结果 与 之 对 比 ， 分 析 其 应 用 效果 。 
2) 模拟 数据 处 理 结果 表明 ， 利 用 SSA 算法 对 XGBoost 模型 进行 超 参数 优化 ， 能 显著 
提高 其 对 地 层 密度 的 预测 性 能 。SSA-XGBoost 模型 表现 出 更 强 的 泛 化 能 力 ， 能 够 有 效 解决 
回归 预测 中 的 过 拟 合 问题 ， 提 高 密度 预测 精度 。 

3) 与 其 他 机 器 学 习 模 型 (如 XGBoost、SSA-LSTM、SSA-SVR、SSA-RFR) 和 传统 方 
法 〈 如 兰 - 肋 图 法 ) 相 比 ，SSA-XGBoost 模型 在 对 模拟 数据 进行 回归 预测 时 表现 出 更 高 的 预 
测 精度 。 其 预测 性 能 在 各 项 评价 指标 上 均 优 于 其 他 方法 ,预测 测试 集 地 层 密度 平均 绝对 误差 
仅 有 0.0174g。cm3， 远 低 于 状 - 肋 图 法 的 误差 0.0284g。cm3。 利 用 SSA-XGBoost 模型 处 理 实 
际 密 度 测 井 数据 时 仍 具 有 较 高 的 预测 精度 , 该 方法 可 以 有 效 解决 其 他 模型 在 预测 地 层 密 度 时 
精度 较 低 的 问题 。 
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